查看原文
其他

还在手工分析数据?其他生物学家已经用上了AI

Nature自然科研 Nature自然科研 2019-05-26

原文以Deep learning for biology为标题

发布在2018年2月20日的《自然》技术专题上

原文作者:Sarah Webb

一种流行的人工智能方法成为了调查和分类生物数据的强大工具。但对于不具备专业知识的人来说,这项技术造成了很大困难。

四年以前,谷歌的科学家出现在神经科学家Steve Finkbeiner家门前。这些科研人员在谷歌加速科学(Google Accelerated Science)工作,该研究部门位于加州山景城,目标是利用谷歌的技术加速科学发现。他们有兴趣用“深度学习”来分析同在加州的格莱斯顿神经疾病研究所的Finkbeiner课题组产生的堆积如山的图像数据。

脑神经网络长期以来一直给予人工智能研究者灵感。

来源: Alfred Pasieka/SPL/Getty

深度学习算法从一个极大规模的加注的数据集(比如一系列图像或基因组)中提取原始特征,并利用这些特征,创建一个基于其内部隐藏模式的预测工具。一旦经过训练,算法可以用这个训练去分析其他或许来源完全不同的数据。


Finkbeiner表示,这项技术可以用来“处理相当困难、棘手、复杂的问题,并可以看到数据结构——那些对于人脑来说总量太大太复杂而无法理解的数据”。


他和他的团队使用一种名为机器人显微镜的高通量成像方法产生了大量数据,这种显微镜是他们为研究脑细胞而开发的。但团队分析数据的速度跟不上获得数据的速度,因此Finkbeiner欣然接受了这个合作的机会。


他说:“其实我当时对使用深度学习能解决的问题并没有一个清晰的理解,但我知道我们正在以分析数据的两到三倍的速度产生数据。”


如今,这些努力正开始取得成效。Finkbeiner的团队与谷歌的科学家们一起,使用两组细胞,训练了一个深度算法。其中一组细胞被人工标记突显出科学家不常看到的特征,另一组则未被标记。Finkbeiner说,当他们后来将算法用于其之前从未接触过的未标记细胞的图像时,算法在预测这些图像应有的标记时表现惊人。一篇详细介绍这项工作的文章即将出版。


Finkbeiner的成功突显了深度学习,人工智能(AI)最有前途的分支之一,是如何正在进入生物学领域的。算法已经渗透到现代生活,如智能手机、智能扬声器和自动驾驶汽车。在生物学中,深度学习算法以人类做不到的方式潜入数据中,检测其他方法可能无法捕捉到的特征。科研人员正在使用这些算法来分类细胞图像,建立基因组的关联,促进药物发现,甚至是从基因组学、成像、电子病历这些不同类型的数据中寻找联系。


bioRxiv预印本服务器上有超过440篇讨论深度学习的文章;PubMed在2017年列出了700多篇参考文献。这些工具或许很快就会被生物学家和临床科研人员广泛使用。但科研人员却难以理解这些算法到底在做什么,也难以保证它们不会误导用户。

训练智能算法

深度学习算法(参见“深度思考”)依赖于神经网络,这是一种于20世纪40年代首次提出的计算模型,其中的类神经元节点层模仿人类大脑如何分析信息。费城宾夕法尼亚大学的计算生物学家Casey Greene说,直到大约五年前,基于神经网络的机器学习算法一直依靠科研人员将原始信息处理成更有意义的形式,然后才将其输入计算模型。但数据集规模的迅速增长(来自诸如智能手机照片或者大规模基因组测序等)和算法的创新减轻了人类的负担。机器学习的这种进步,即“深度”部分,迫使计算机,而不是它们的人类程序员,去寻找像素和基点中的有意义的关系。神经网络中的层不仅具有过滤和分类信息的功能,还可以相互通讯,因此每一层都能够优化前一层的输出。

来源:Jeremy Linsley/Drew Linsley/Steve Finkbeiner/Thomas Serre

最终,经过这个过程,训练过的算法能够分析一张新图像并正确识别它,例如,图像是否是查尔斯·达尔文或一个病态的细胞。但随着科研人员与算法渐行渐远,他们不再能够控制分类过程或甚至是解释软件具体在干什么。尽管这些深度学习网络在做出预测时可能非常准确,但Finkbeiner说:“要弄清楚网络看到了什么使它能够做出如此好的预测,有时仍然是个难题”。


不过,许多生物学的分支学科,包括成像,正从这些预测中受益。十年前,用于自动生物图像分析的软件重点测量一组图像中的单一参数。 例如,2005年,麻省理工学院和哈佛大学的布罗德研究所的计算生物学家Anne Carpenter发布了一个名为CellProfiler的开源软件包,以帮助生物学家定量测量单个特征:例如,一个显微镜成像区域的荧光细胞数或斑马鱼的长度。


但深度学习让她的团队走得更远。她说:“我们已经转而去测量那些生物学家没有意识到想要从图像中测量的东西。” 记录和结合视觉特征,例如DNA染色、细胞器结构和一个细胞中空白区域的质量,可以产生数千个“特征”,其中的任何一个都可能揭示新的见解。CellProfiler的当前版本包括了一些深度学习的元素,而且她的团队希望明年能够加入更复杂的深度学习工具。


Carpenter说:“大多数人可能难以理解这一点,但是一幅细胞图像中所包含的信息实际上可能比一群细胞的转录组分析中所包含的信息更多。”


这种处理方式让Carpenter团队能够采取一种只需有限监督的方法将细胞图像转化为疾病相关的表型并利用它盈利。Carpenter是犹他州盐湖城Recursion Pharmaceuticals公司的科学顾问,该公司正靶向稀有的单基因疾病,利用深度学习工具进行药物开发。

挖掘基因组数据

深度学习并不适用于所有数据。该方法通常需要大量注释良好的数据集。图像数据特别适合,基因组数据也可以。


其中一家使用此类数据的生物技术公司是位于旧金山的Verily 生命科学公司(前身为谷歌生命科学公司)。Verily的研究人员开发出一个深度学习工具,能够比传统工具更准确地识别一种名为单核苷酸多态性的常见的遗传变异型。这款名为DeepVariant的软件将基因组信息转化为类似图像的表达,然后把基因组信息当作图像去分析(参见‘深潜工具’)


Verily公司基于深度学习的基因组研究主管Mark DePristo预计DeepVariant对那些研究主流之外生物体 —— 那些参考基因组质量低、遗传变异识别错误率高的生物体——的科研人员特别有用。他的同事Ryan Poplin在植物学方面与DeepVariant合作,他的错误率已经降至接近2%,而其他方法的错误率一般维持在20%。

深潜工具

深度学习工具正在迅速发展,为了好好利用这些工具,实验室需要计算机专业知识和合作机会。


加州旧金山格拉德斯通研究所的神经科学家Steve Finkbeiner建议,首先,请一位具有深度学习专长的同事出去吃午餐,然后咨询相关实验策略是否可行。他说,对于一些数据集,例如成像数据,现成的程序可能就可以了;对于更复杂的项目,请考虑邀请一位合作者。研讨会和各种会议能够提供培训机会。


获得云计算资源意味着科研人员可能不需要现场的计算机群就能使用深度学习——他们可以在其他地方运行计算。谷歌的TensorFlow是一个用于构建深度学习算法的开源平台,可以从软件共享网站GitHub上获取,同时它也是DeepVariant的一个开源版本,是一种用于准确识别遗传变异的工具。


谷歌加速科学(位于加州山景城的谷歌的一个研究部门)的一位科学家Michelle Dimon介绍说,谷歌加速科学正与各领域的科学家合作,包括生物学家。项目需要一个亟需解决的生物问题,大量高质量、带标签的数据,以及一项让公司的机器学习专家能够为该领域做出独特计算贡献的挑战。


那些希望跟上深度学习发展速度的人应该仔细读一下由费城宾夕法尼亚大学的计算生物学家Casey Greene组织撰写的全面且包含众科学家观点的综述文章“深度综述”(T. Ching et al.Preprint at bioRxiv http://doi.org/gbpvh5; 2018)。

加拿大多伦多Deep Genomics公司的首席执行官Brendan Frey也非常关注基因组数据,但其目标是预测和治疗疾病。Frey在多伦多大学的学术团队开发出经过健康细胞的基因组和转录组数据训练的算法。这些算法在数据内构建RNA加工步骤的预测性模型,例如剪接、转录和多腺苷酸化的预测模型。Frey说,当将算法应用于临床数据时,即使算法从未见过临床数据,它们也能够识别突变并标记致病性。在Deep Genomics公司,Frey的团队正在使用相同的工具来鉴定和靶向该软件所揭示的疾病机制,以开发源自短核酸序列的治疗方法。


药物研发是另一个拥有大量数据集,适合使用深度学习来处理的领域。在这方面,深度学习算法正在帮助解决分类的难题,通过形状和氢键等分子特征进行筛选,以确定那些潜在药物的分级标准。例如,旧金山的一家生物技术公司Atomwise开发了将分子转换成三维像素(体素)网格的算法。这种表现形式使公司能够以原子精度解析蛋白质和小分子的三维结构,为特征建模,例如碳原子的几何结构。公司首席执行官Abraham Heifets说,这些特征随后被译成数学向量,算法可以使用这些向量去预测哪些小分子有可能与给定的蛋白质相互作用。他说:“我们所做的很多工作都是针对没有已知靶向结合物的蛋白质。”


Atomwise公司正在使用这个策略推动它新的人工智能驱动的分子筛选方案,该方案扫描一个有一千万化合物的库,为学术研究人员提供多达72种潜在的小分子结合物,用于他们感兴趣的蛋白质。


深度学习工具还可以帮助科研人员为疾病类型分层,了解疾病亚群,找到新的治疗方法并与适当的患者匹配用于临床测试和治疗。例如,Finkbeiner(Answer ALS联盟的一员)致力于将来自1000名患有运动神经元疾病的患者的一系列数据(基因组学、转录组学、表观基因组学、蛋白质组学、影像学、甚至是多能干细胞生物学数据)结合起来。他说:“这是第一次,我们有一个能够应用深度学习的数据集,并观察深度学习是否可以揭示我们在培养皿中测量到的某个细胞的数据和病人身上正在发生的事件之间的关联。”

挑战与注意事项

研究人员提醒,虽然深度学习前景无限,但是也面临诸多巨大的挑战。与任何一种计算生物学技术一样,算法得到的结果的好坏取决于算法使用的数据的好坏。模型与其训练数据的过拟合也是一个问题。另外,用于深度学习的数据的数量和质量标准通常比某些实验生物学家预期的更为严格。


深度学习算法需要相当大规模且注释好的数据集,以便算法能够学习去分辨特征和分类模式。更大的、标记明确的数据集——有数百万个数据点代表不同的实验和生理条件——为科研人员训练一个算法提供了最大的灵活性。Finkbeiner指出,他工作中的算法在经过约15,000个例子的训练之后得到显著改善。Carpenter说,那些高质量的“真值”数据可能极难获得。


为了绕过这个难题,科研人员一直在努力研究使用更少数据进行更多训练的方法。Carpenter说,底层算法的进步使得神经网络能更有效地利用数据,从而使一些应用仅需使用少量图像进行训练便可实现。科学家们还可以采用迁移学习,即神经网络将从一种数据类型获得的分类能力应用于另一种数据类型的能力。例如,Finkbeiner的研究小组开发了一种算法,最初被训练用于以细胞形态变化为基础预测细胞死亡。尽管科研人员训练它去研究啮齿动物细胞的图像,但当它第一次用于人类细胞图像时就达到了90%的准确率,随着经验的增加,准确率更是高达99%。


对于一些生物图像识别工作,谷歌加速科学最初使用从网络上采集到的数亿客户图像来训练算法。科研人员随后改进了训练,只使用几百张类似他们研究对象的生物图像。


谷歌加速科学的研究科学家Michelle Dimon指出,深度学习的另一个局限是计算机既不智能又懒惰。它们缺乏能够区分生物学相关差异和正常差异的判断力。她指出:“电脑在查找批量差异方面相当出色。”因此,为了获得可用于训练深度学习算法的数据,科学家必须对实验设计和对照设置更高的门槛。谷歌加速科学要求研究人员随机在细胞培养板上设置对照,以考虑微妙的环境因素(例如培养箱温度)所带来的影响,并且设置的对照组数量应该比生物学家在通常情况下设置的高一倍。Dimon开玩笑说,“我们增加了移液的难度”。


Dimon说,这些难点表明了生物学家和计算机科学家合作设计有关深度学习的实验的重要性。在谷歌的最新项目Contour中,这种精心设计变得更为重要。Contour是一种通过突出显示趋势(比如剂量反应)代替将细胞归入特定类别(比如活细胞或死细胞)的方式归类细胞成像数据的策略。


Greene提醒,尽管深度学习算法可以在没有人类预设和过滤的情况下评估数据,但这并不意味着它们是没有偏见的。训练数据可能是有偏差的,比如碰巧只使用北欧人的基因组数据。用这样的数据训练出来的深度学习算法将会获得植入偏差并在它们的预测中反映出来,这反过来会导致不平等的病患治疗结果。人类协助验证这些预测在某种程度上可解决这一问题。 但如果只使用计算机来做出关键的决策,这些问题就会成为麻烦。Greene说:“把这些方法看作是人类的扩充比把这些方法看作是人类的替代更合理。”


另一个挑战就是准确理解这些算法是如何构建它们用于数据分类的特征。马里兰州一家使用深度学习来改进药物研发的公司Insilico Medicine的研究科学家Polina Mamoshina表示,计算机科学家们正通过改变或打乱模型中的单一特征并研究这些调整如何改变预测的准确性来攻克这个问题。但Greene提醒说,不同神经网络在研究相同问题时的处理方式并不一样。他说,科研人员越来越关注既能准确预测又能做出可解释预测的算法,但目前这些系统仍然是黑盒子。


Greene说:“我不认为高度可解释的深度学习模式将会在2018年出现,尽管我很希望自己是错的。”

Nature|doi:10.1038/d41586-018-02174-z

你的科研项目用上人工智能算法了吗?你害怕算法取代你的工作吗?

点击“阅读原文”阅读英文原文


热门文章

 

点击图片阅读:生物学家分析图像的方式,正在被机器学习所改变

点击图片阅读:“我不是一个人”|当女科学家怀孕时

点击图片阅读:学生物找工作难?你不熟悉的糖生物学可能是下一个热点



版权声明:

本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考,一切内容以英文原版为准。欢迎转发至朋友圈,如需转载,请邮件Chinapress@nature.com。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。


© 2018 Macmillan Publishers Limited, part of Springer Nature. All Rights Reserved

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存